在针对自闭症谱系障碍患者的机器人辅助治疗中,如果必须手动控制机器人,则在治疗过程中的治疗师工作量会增加。为了允许治疗师专注于与人的互动,机器人应该更加自主,即它应该能够解释该人的状态并根据其行为不断适应其行为。在本文中,我们开发了一个个性化的机器人行为模型,该模型可以在活动期间的机器人决策过程中使用。该行为模型是在从真实交互数据中学到的用户模型的帮助下训练的。我们将Q学习用于此任务,因此结果表明该策略需要大约10,000次迭代才能收敛。因此,我们调查了改善收敛速度的政策转移;我们表明这是一个可行的解决方案,但是不适当的初始政策可以导致最终的最终回报。
translated by 谷歌翻译